Блог — Лисья нора

Главная » Блог » Оптимизация? Не... не слышал

	Ноябрь 2025
Пн	Вт	Ср	Чт	Пт	Сб	Вс
—	—	—	—	—	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

386 3D 8088 AVR C++ JS MAX2 VM Алгоритмы Бейсик Белизна Блог Бред Видак Графика Демо ДеньРождения Детство Дневник Достижения Зима Идеи Идея Истории К155ЛА3 Книги Код Куб Лень Марсоход2 Математика Море Нейросеть Новости НовыйГод Нытье Планы ПЛИС Процессор Размышления Разработка Рассказ Сайт Сон Спектрум Электроника Юмор Ютуб

Блог страдающего Лиса

Lorem ipsum hello dolor sit world amet

10 окт 2024 Чт Оптимизация? Не... не слышал

Есть у меня один проект одного ядра 8088, который я решил просто доделать, чтобы было. Суть такова. Существует такая инструкция как REP MOVSW, например. Когда я делал это ядро раньше, то сделал ее такой, чтобы каждый раз она исполнялась за 12Т, и это очень, очень много! Несмотря на то что она исполнялась так медленно, даже этой скорости хватало, чтобы сделать скроллинг экрана со скоростью 65 кадров в секунду. Но разве это дело? Это медленно, и мне этой скорости не хватило.

1move:   xor     di, di
2        mov     si, 2
3        mov     dx, 200
4@@:     mov     cx, (318/2)
5        rep     movsw
6        add     di, 2
7        add     si, 2
8        dec     dx
9        jne     @b
10        ret

Номера

Выше я привел сакральные коды скроллера, который выполняет перенос всего экрана. Итак, как мы видим, краеугольный камень проблемы в том, что rep movsw выполнялась за 12Т на каждое пройденное машинное слово (2 байта). Я посмотрел в код и удивился, до чего я его не оптимально сделал.

Пришла пора значит, переделывать. Сегодня сел с утра и переделал так, что теперь вся эта инструкция выполняется за 4*CX + 3 тактов! Да, это вот такое ускорение аж в 3 раза! Один байт, получается, перекидывает за 2Т.

Если пересчитать количество тактов, то можно понять, что для того, чтобы сдвинуть экран 320 на 200, потребуется (160 x 4 + 3)*200 тактов, что равно 128600, и это в пересчете 25 000 000 / 128600 дает 194 кадров в секунду! Просто поразительное ускорение фактически на 300% только за счет того что я сделал оптимизацию.

Единственный минус в том, что если посередине исполнения этой инструкции возникнет сигнал INTR, то ему придется подождать, пока инструкция закончит работу. Учитывая, что там может быть 65535 итерации, то ждать придется 262140 тактов. Это надо учитывать при разработке программ, которые юзают INTR. Но и еще мне тоже надо доработать контроллер прерываний, чтобы не было такой ситуации, чтобы они были упущены, а то это нехорошо. Контроллер прерываний надо сделать внешний для этого. dance

А еще сделал чтобы STOSx выполнялся 1Т = 1 байт, с такой скоростью теперь пишется. Для LODSx вообще будет выполняться за 4-5Т всегда, вне зависимости от REP, поскольку имеет смысл читать только последние 1-2 байта из общей выборки.

Таким образом, я переделаю все строковые инструкции.

Теги: Процессор, Код